为多个机器人制定安全,稳定和高效的避免障碍政策是具有挑战性的。大多数现有研究要么使用集中控制,要么需要与其他机器人进行通信。在本文中,我们提出了一种基于对数地图的新型对数深度强化学习方法,以避免复杂且无通信的多机器人方案。特别是,我们的方法将激光信息转换为对数图。为了提高训练速度和概括性能,我们的政策将在两个专门设计的多机器人方案中进行培训。与其他方法相比,对数图可以更准确地表示障碍,并提高避免障碍的成功率。我们最终在各种模拟和现实情况下评估了我们的方法。结果表明,我们的方法为复杂的多机器人场景和行人场景中的机器人提供了一种更稳定,更有效的导航解决方案。视频可在https://youtu.be/r0esuxe6mze上找到。
translated by 谷歌翻译
Script is a kind of structured knowledge extracted from texts, which contains a sequence of events. Based on such knowledge, script event prediction aims to predict the subsequent event. To do so, two aspects should be considered for events, namely, event description (i.e., what the events should contain) and event encoding (i.e., how they should be encoded). Most existing methods describe an event by a verb together with only a few core arguments (i.e., subject, object, and indirect object), which are not precise. In addition, existing event encoders are limited to a fixed number of arguments, which are not flexible to deal with extra information. Thus, in this paper, we propose the Rich Event Prediction (REP) framework for script event prediction. Fundamentally, it is based on the proposed rich event description, which enriches the existing ones with three kinds of important information, namely, the senses of verbs, extra semantic roles, and types of participants. REP contains an event extractor to extract such information from texts. Based on the extracted rich information, a predictor then selects the most probable subsequent event. The core component of the predictor is a transformer-based event encoder to flexibly deal with an arbitrary number of arguments. Experimental results on the widely used Gigaword Corpus show the effectiveness of the proposed framework.
translated by 谷歌翻译
Visual Entity Linking (VEL) is a task to link regions of images with their corresponding entities in Knowledge Bases (KBs), which is beneficial for many computer vision tasks such as image retrieval, image caption, and visual question answering. While existing tasks in VEL either rely on textual data to complement a multi-modal linking or only link objects with general entities, which fails to perform named entity linking on large amounts of image data. In this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task, where the input only consists of an image. The task is to identify objects of interest (i.e., visual entity mentions) in images and link them to corresponding named entities in KBs. Since each entity often contains rich visual and textual information in KBs, we thus propose three different sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL). In addition, we present a high-quality human-annotated visual person linking dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of baseline algorithms for the solution of each sub-task, and conduct experiments to verify the quality of proposed datasets and the effectiveness of baseline methods. We envision this work to be helpful for soliciting more works regarding VNEL in the future. The codes and datasets are publicly available at https://github.com/ict-bigdatalab/VNEL.
translated by 谷歌翻译
引号提取旨在从书面文本中提取引号。引号中有三个组成部分:来源是指引号的持有人,提示是触发词,内容是主体。引号提取的现有解决方案主要利用基于规则的方法和序列标签模型。尽管基于规则的方法通常会导致召回率低,但序列标记模型不能很好地处理带有复杂结构的报价。在本文中,我们提出了上下文和以前的标签增强净(Cofenet),以提取引号。Cofenet能够提取具有可变长度和复杂结构的组成部分的复杂报价。在两个公共数据集(即polnear和Riqua)和一个专有数据集(即Politicszh)上,我们表明我们的Cofenet在复杂的引号提取方面取得了最先进的表现。
translated by 谷歌翻译
知识密集型语言任务(苏格兰信)通常需要大量信息来提供正确的答案。解决此问题的一种流行范式是将搜索系统与机器读取器相结合,前者检索支持证据,后者检查它们以产生答案。最近,读者组成部分在大规模预培养的生成模型的帮助下见证了重大进展。同时,搜索组件中的大多数现有解决方案都依赖于传统的``索引 - retrieve-then-Rank''管道,该管道遭受了巨大的内存足迹和端到端优化的困难。受到最新构建基于模型的IR模型的努力的启发,我们建议用新颖的单步生成模型替换传统的多步搜索管道,该模型可以极大地简化搜索过程并以端到端的方式进行优化。我们表明,可以通过一组经过适当设计的预训练任务来学习强大的生成检索模型,并被采用以通过进一步的微调来改善各种下游苏格兰短裙任务。我们将预训练的生成检索模型命名为Copusbrain,因为有关该语料库的所有信息均以其参数进行编码,而无需构造其他索引。经验结果表明,在苏格兰语基准上的检索任务并建立了新的最新性能,Copusbrain可以极大地超过强大的基准。我们还表明,在零农源和低资源设置下,科体班运行良好。
translated by 谷歌翻译
作为梯度引导的搜索方法,可区分的神经体系结构搜索(飞镖)大大降低了计算成本,并加快了搜索的速度。在飞镖中,将体系结构参数引入候选操作,但是某些配备权重的操作的参数可能在初始阶段训练不好,这会导致候选操作之间的不公平竞争。无重量的操作大量出现,导致性能崩溃现象。此外,在训练超网中将占用许多内存,这会导致内存利用率较低。在本文中,提出了基于通道注意的部分通道连接,以进行可区分的神经体系结构搜索(ADARTS)。一些具有较高权重的通道是通过注意机制选择的,并将其他通道直接与处理的通道接触到操作空间。选择一些具有较高注意力权重的通道可以更好地将重要的功能信息传输到搜索空间中,并大大提高搜索效率和内存利用率。也可以避免由随机选择引起的网络结构的不稳定性。实验结果表明,ADART在CIFAR-10和CIFAR-100上分别达到了2.46%和17.06%的分类错误率。 Adarts可以有效地解决一个问题,即搜索过程中出现过多的跳过连接并获得具有更好性能的网络结构。
translated by 谷歌翻译
在这项工作中,我们提出了一个置换不变的语言模型Symphonynet,作为象征性交响音乐生成的解决方案。我们建议使用基于变压器的自动回归语言模型具有特定的3-D位置嵌入的新型多通道可重复的多磁场(MMR)表示,并模拟音乐序列。为了克服长度溢出在建模超长的交响令牌时,我们还提出了一对经过修改的字节对编码算法(音乐bpe)用于音乐令牌,并引入了一种新颖的线性变压器解码器架构作为骨干。同时,我们通过从输入中掩盖仪器信息来训练解码器将自动编排作为联合任务学习。我们还引入了一个大规模的符号交响数据集,以进行交响曲生成研究的发展。经验结果表明,所提出的方法可以产生连贯,新颖,复杂和和谐的交响曲,作为多轨多训练符号音乐生成的先驱解决方案。
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
音乐源分离(MSS)在近年来深度学习模型中显示了积极进展。许多MSS模型通过估计有界比掩模并重用混合物的阶段来对谱图进行分离。当使用卷积神经网络(CNN)时,不管频带之间的不同模式如何,卷积期间的重量通常在卷积期间共享。在这项研究中,我们提出了一种新的MSS模型,通道 - 方向子带相位感知resunet(CWS-PREUUNET),以将信号分解为子带,并为每个源估计未结合的复杂理想比率掩码(CIRM)。 CWS-PREUUNET利用通道 - 方向子带(CWS)功能来限制在频谱图上共享不必要的全局权重,并降低计算资源消耗。保存的计算成本和内存又可以允许更大的架构。在MusdB18HQ测试集上,我们提出了一个276层CWS-PREUUNET,并在具有8.92个信号到失真率(SDR)分数的人声上实现最先进的(SOTA)性能。通过组合CWS-PREUUNET和DEMUC,我们的BYTEMSS系统在2021 ISMIR MUSIC DEMIXING(MDX)挑战有限训练数据轨道(排行榜A)中排名第2位的人声学分数和第5分。我们的代码和预先训练的型号可公开提供:https://github.com/haoheliu/2021-ismir-mss-challenge-cws-presunet
translated by 谷歌翻译
基于LIDAR的位置识别是环路闭合检测和全局重川化的必要和具有挑战性的任务。我们提出了深度扫描上下文(DSC),一般和辨别的全局描述符,捕获点云的段之间的关系。与以前的方法或相邻点云的序列进行以获得更好的地方识别,我们只使用原始点云来获得竞争结果。具体而言,我们首先将点云分段为摄影云,以获取细分的质心和特征值。然后,我们介绍一个图形神经网络,将这些功能聚合到嵌入式表示中。在基提数据集上进行的广泛实验表明,DSC对场景变体具有强大,优于现有方法。
translated by 谷歌翻译